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基于 与 情 数据 中 人 台 的 产品 多 元 化 体系 建设 


一 一 以 南方 舆情 为 例 


摘 要 : 随 着 与 情 市 场 的 不 断 开 拓 ， 如 何 灵 活 响应 多 变性 、 多 样 化 的 用 户 需求 ， 快 速生 成 多 元 化 产品 服务 ， 成 为 重要 问题 。 
本 文 立足 与 情 应 用 场景 ， 通 过 标准 的 规范 定义 和 服务 的 封装 编排 ,构建 一 个 承接 技术 、 引 领 业 务 ， 可 快速 连接 革 取 的 智慧 数 
据 中 人 台 ， 高 效 满足 前 台 的 数据 分 析 和 产品 服务 ， 引 领 和 与 情 业务 向 纵深 层次 发 展 。 
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近年 来 ,传统 媒体 不 断 寻 求 融合 转型 之 道 , 拓展 “ 媒 
体 +" 服 务 ,为 用 户 创造 更 多 价值 ,为 构建 与 论 引导 新 格局 ， 
越 来 越 多 的 传统 媒体 整合 品牌 资源 、 政 经 资源 和 信息 资 
源 ， 切 入 与 情 服 务 领域 。 

随 着 与 情 市 场 的 不 断 开 拓 ， 政 务 用 户 和 企业 用 户 之 
间 、 省 级 政务 用 户 与 区 县 基层 政务 用 户 之 间 ， 甚 至 地 方 
政府 用 户 和 职能 厅 局 用 户 之 间 ， 对 与 情 产 品 服务 呈现 多 
样 化 需求 ， 同 一 用 户 在 不 同 环境 下 对 和 与 情 管 理 的 需求 也 
相当 多 变 。 当 这 种 变量 积累 到 一 定 体 量 ， 为 每 个 用 户 的 
定制 开发 成 本 会 非常 高 , 同时 出 现 产 品 效率 不 高 等 问题 。 
本 文 从 南方 与 情 的 实际 业务 发 展 出 发 ， 学 习 实 践 阿里 巴 
巴 首 提 的 “大 中 台 、 小 前 台 ” 概 念 ， 引 入 和 与 情 数据 中 人 台 
的 运转 思路 ， 支 撑 产 品 应 用 多 元 化 快速 生成 ， 打 造 一 挠 
子 与 情 产 品 服务 , 通过 "技术 降 本 、 应 用 提 效 、 业 务 赋 能 ”， 
抓 住 与 情 市 场 的 发 展 机 遇 。 
1. 难题 与 挑战 

面 对 复 杂 的 熏 情 应 用 场景 ， 突 破 传统 的 系统 架构 ， 
构建 舆情 数据 中 台 ， 贴 近 用 户 多 变 多 样 的 使 用 需求 ， 面 
临 着 诸多 技术 难题 与 挑战 。 

挑战 一 : 全 域 数据 采集 与 人 库 。 以 需求 为 驱动 ， 
如 何 实 时 采集 和 引入 多 渠道 数据 ( 网 站 、 论 坛 、 博 客 、 
APP、 微 博 、 微 信 公 众 号 、 电 台电 视 台 ) 、 多 形态 ( 自身 
业务 系统 、 互 联网 采集 、 第 三 方 交换 ) 的 数据 ,构建 多 信 源 、 
海量 和 动态 的 基础 数据 池 存 在 很 大 的 挑战 。 

挑战 二 : 规范 数据 架构 与 研发 。 如 何 构 建 数据 的 分 
层 与 水 平 解 看 结构 ， 通 过 全 域 采 集 数 据 格式 的 规范 化 、 
交互 接口 的 标准 化 实现 架构 的 统一 性 、 可 靠 性 和 灵活 性 ， 
快速 支撑 上 层 数 据 应 用 和 服务 ， 是 一 个 值得 探讨 的 技术 
难点 。 

挑战 三 ， 跨 域 数据 整合 与 知识 沉 洗 。 如 何 建立 融合 
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模型 ， 通 过 不 同 维度 的 建 模 实现 跨 域 与 情 数据 的 整合 ， 
同时 挖掘 舆情 数据 从 个 体 标 签 化 到 全 局 指标 化 ， 深 度 葵 
取 数 据 价 值 ， 实 现 共 性 应 用 的 知识 沉淀 ， 是 面向 与 情 业 
务 文 撑 提 供 底座 能 力 的 关键 。 

挑战 四 : 数据 封装 应 用 与 服务 开放 。 数 据 的 规模 化 
发 展 是 提供 服务 化 能 力 。 如 何 按 应 用 要 求 做 服务 的 封装 ， 
通过 多 元 化 的 产品 形态 开放 给 外 部 服务 用 户 ， 实 现 数据 
价值 的 快速 分 享 ， 打 通 服 务 用 户 的 最 后 一 公里 ， 是 建设 
与 情 数据 中 台 的 最 终 目 的 。 

2. 技术 架构 与 关键 技术 

数据 中 台 的 概念 首先 由 阿里 巴巴 提出 ，“ 构 建 规范 
定义 的 、 全 域 可 连接 萃取 的 、 智 慧 的 数据 处 理 平台 ”， 
其 建设 目标 是 高 效 满足 前 台数 据 分 析 和 应 用 的 需求 。 为 
应 对 与 情 服务 需求 的 复杂 多 变性 ， 南 方 与 情 从 实际 业务 
出 发 , 设计 和 搭建 了 与 情 数据 中 台 , 以 期 实现 产品 定制 化 、 
服务 个 性 化 的 快速 部 署 。 总 体 架构 和 关键 技术 描述 如 图 1 
所 示 。 

2. 1 与 情 数据 采集 : 全 域 数 据 智能 采集 与 入 库 

全 域 数据 智能 化 采集 平台 主要 对 接 的 数据 形态 包括 
互联 网 数据 采集 、 合 作 互 补 数据 、 媒 体 独家 线 下 信 源 、 
自身 采编 业务 数据 。 互 联网 数据 通过 分 布 式 怜 虫 、 智 能 
采集 调度 、 自 适应 采集 策略 、 数 据 采集 代理 、 自 动 登录 
验证 等 技术 ,灵活 配置 采集 规则 、 抓 取 深 度 、 扫 描 频 率 
等 采集 策略 ， 实 现 各 渠道 数据 源 的 统一 采集 管理 。 依 托 
分 布 式 架 构 、 多 点 负载 均衡 和 自 适 应 带 客 设计 ， 确 保 实 
时 采集 效率 、 采 集 稳定 性 和 采集 数据 完整 性 。 

以 分 布 式 计算 架构 实现 对 大 规模 数据 的 快速 识别 与 
言 息 抓 取 ， 对 不 同 的 信息 使 用 不 同 的 抓 取 策略 ,实现 互 
联网 信息 抓 取 的 自动 化 。 采 用 分 布 式 多 线程 并 发 指令 执 
行 体系 结构 、 增 量 实时 索引 、 智 能 分 词 等 技术 ,采集 和 
数据 管理 效率 高 。 实 现 多 个 网 站 同时 并 发 抓 取 、 一 个 任 
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1 与 情 数据 中 台 的 技术 架构 


自 采 的 互联 网 数据 、 合 作 互 补 数据 、 线 下 信 源 数据 、 
采编 业务 数据 经 过 标准 化 数据 接口 统一 格式 后 进入 数据 
分 析 层 ,打通 数据 孤岛 ,解决 与 情 数 据 的 多 源 异 构 问题 ， 
减少 烟 向 式 协作 ， 确 保 与 情 数 据 的 多 元 性 和 完整 性 。 

2. 2 与 情 数据 分 析 : 数据 标准 规范 化 和 可 获取 性 

对 采集 到 的 信息 进行 垃圾 识别 过 滤 , 自动 清洗 广告 、 
无 关 图 片 . 超 链接 .动态 Flash 等 无 用 信息 ,利用 智能 解析 ， 
自动 抽取 标题 、 时 间 、 来 源 、 作 者 、 正 文 等 有 效 信息 要 素 ， 
通过 内 容 判 重 引 敬 ， 根 据 数据 内 容 分 析 语义 对 数据 进行 
去 重 与 归并 ,自动 判断 重复 文章 , 实现 自动 去 重 与 合并 。 
采用 分 布 式 存储 集群 对 加 工 后 的 标准 化 奥 情 数据 、 快 照 、 
索引 进行 存储 ， 实 现 结构 化 、 非 结构 化 数据 资源 的 融合 
管理 。 分 析 处 理 后 的 标准 规范 化 与 情 数据 ， 为 与 情 服 务 
应 用 提供 调用 基础 ， 通 过 服务 接口 响应 舆情 业务 的 基本 
需求 。 

2. 3 与 情 数据 建 模 : 数据 多 维 标签 与 指标 化 

对 海量 舆情 数据 进行 深入 挖掘 ， 利 用 关键 词 正 则 表 
达 式 智能 解析 匹配 提取 事件 关联 信息 ， 并 针对 热点 事件 
言 息 进 行 多 维度 分 析 。 对 事件 信息 进行 分 词 、 情 感 分 析 、 
热度 分 析 、 高 频 词 提取 、 关 联 分 析 、 数 据 统 计 等 处 理 ， 
结合 自动 摘要 、 分 类 、 聚 类 等 智能 化 运算 ， 从 而 分 析 得 
出 事件 的 发 展 趋势 、 敏 感 指数 、 地 域 分 布 、 传 播 路径 、 


关键 人 物 、 正 负面 倾向 、 网 民 观 点 等 ， 深 入 分 析 事 件 的 
本 质 原因 ， 形 成 建 模 基础 数据 。 

以 智能 化 标签 的 方式 对 数据 信 源 进行 归 类 ， 在 逻辑 
上 将 数据 信 源 自由 组 合成 任意 不 同 的 虚拟 数据 信 源 包 。 
在 数据 检索 时 ， 既 可 以 在 全 局 数据 信 源 里 进行 匹配 ， 也 
可 以 根据 不 同 用 户 的 不 同 需 求 ， 在 虚拟 数据 信 源 包 里 进 
行 数据 匹配 ， 缩 小 数据 检索 范围 ， 提 高 数据 检索 精度 ， 
同时 提高 数据 检索 效率 , 实现 僵 情 数据 检索 的 灵活 部 署 ， 
快速 响应 业务 环境 的 变化 对 业务 流程 优化 提出 的 要 求 ， 
为 个 性 化 、 定 制 化 的 与 情 产品 提供 基本 支撑 。 

2.4 与 情 服务 应 用 : 数据 应 用 封装 与 服务 开放 

利用 与 (+) 、 或 (1) 、 非 (-) 无 限 层级 优先 级 
嵌 套 匹配 规则 ， 基 于 高 效 索 引 和 排序 算法 的 多 维度 检索 
实现 关键 字 解 析 体 系 ， 支 持 多 种 索引 条 件 的 复杂 组 合 ， 
最 大 程度 满足 各 种 数据 应 用 的 封装 需求 。 通 过 自动 推送 
脚本 将 检索 结果 进行 智能 推送 ， 便 于 幅 情 数据 的 高 效 共 
享 ， 为 进一步 的 盘 情 业务 和 其 他 粤 情 扩展 业务 发 展 提供 
强大 的 数据 支撑 ， 实 现 了 一 次 跟踪 ， 多 端 使 用 。 推 送 使 
用 XML Schema 规范 作为 数据 交换 的 标准 格式 ， 屏 蔽 了 异 
构 数 据 源 之 间 的 差异 ; 数据 格式 采用 XML/JSON， 方便 调 
用 ， 适 配 性 强 。 

在 与 情 数据 建 模 的 基础 上 ， 通 过 虚拟 数据 信 源 包 与 
关键 词 解 析 体 系 ， 对 数据 进行 封装 ， 结 合 智能 推送 开发 
多 种 舆情 服务 应 用 , 璧 如 即时 预警 、 周 期 报告 、 专题 分 析 、 
熏 情 会 商 、 僵 情 研 判 等 ， 利 用 PC 端 、APP、 大 屏 、 微 信 、 
得 信 等 多 种 发 布 渠 道 ， 形 成 僵 情 服务 应 用 抢 阵 ， 满 足 全 
方位 的 与 情 服务 开放 。 

3. 应 用 案例 
南方 僵 情 通过 应 用 创新 和 技术 创新 ， 基 于 舆情 数据 


202310.01652v1 


chinaXiv 


ChinaXiv 合 作 期 刊 
传媒 术 术 21 全 


中 台 构 建 产品 快速 生成 的 服务 体系 ， 以 下 简要 阐述 与 情 
数据 中 台 实 现 业务 赋 能 的 落地 应 用 案例 。 
3.1 社情 风险 指数 和 榜 单 
社情 风险 指数 是 南方 僵 情 基于 ”数据 沉淀 、 业务 下 沉 ” 
的 特色 产品 应 用 。 该 产品 生成 逻辑 和 技术 实现 步 又 如 下 : 
第 一 ， 采 集 汇 总 历史 风险 事件 ， 形 成 以 业务 核心 对 
象 为 中 心 的 连接 和 标签 体系 ， 并 对 风险 事件 性 质 、 等 级 
及 传播 范围 提取 要 素 ， 并 对 各 要 素 进行 赋值 定义 ， 建 立 
社情 风险 指数 计算 模型 ; 第 二 ， 一 定 周期 内 (日 、 周 、 月 、 


@ 南方 届 情 多 维 交叉 比 对 系统 - 给 对 比 


广 


年 ) ， 增 量 和 与 情 数据 与 离线 历史 数据 同步 共享 ， 基 于 数 
据 标准 和 标签 模型 开展 数据 萃取 ， 反 哺 与 情 数据 中 台 ， 
在 线 量化 形成 社情 风险 指数 ; 第 三 ， 推 出 社情 风险 指数 
榜 单产 品 ， 灵 活 对 时 间 、 地 域 、 属 性 等 维度 的 社情 状况 
综合 评估 评判 。 
3.2 与 情 多 维 交 又 比 对 与 可 视 化 

与 情 多 维 交 叉 比 对 与 可 视 化 是 南方 与 情 “ 数 据 组 装 
化 、 应 用 服务 化 ”的 应 用 案例 。 系 统 操 作 界面 如 图 2， 它 
的 生成 逻辑 和 技术 实现 步骤 如 图 2 所 示 。 
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2 ”与 情 多 维 交 又 比 对 


第 一 ， 整 合 全 域 数据 ， 统 一 数据 出 口 和 查询 逻辑 ， 
建立 舆情 态势 感知 体系 ， 既 能 对 广东 地 域内 开展 全 面 与 
情 巡 查 ， 又 能 快速 发 现 和 展示 服务 用 户 以 及 罕 发 事件 的 
演变 趋势 ; 第 二 ， 通 过 复 用 公共 定量 指标 、 加 工 个 性 变 
量 指标 的 方式 ， 既 提取 领导 力 、 发 展 力 、 执 行 力 、 创 新 
力 等 方向 指标 ， 又 深入 到 媒体 关注 、 社 会 维稳 、 营 商 环 
境 等 细 化 指标 ， 建 立 用 户 坐 标 系 ， 通 过 算法 模型 匹配 ， 
迅速 清晰 地 进行 用 户 画像 ;第 三 ， 通 过 业务 应 用 操作 ， 
及 时 响应 和 可 视 化 输出 数据 采集 分 析 和 指标 模型 效果 ( 适 
应 不 同 呈 现 载体 ) ， 通 过 不 同 指标 数值 的 阔 值 设置 实现 
自动 预警 ， 快 速 完 成 面向 用 户 需 求 的 数据 封装 和 应 用 服 
务 。 
结语 

与 情 数据 中 台 的 核心 是 数据 模型 、 算 法 服务 和 数据 
产品 等 能 力 ， 通 过 搭建 灵活 快速 应 对 变化 的 架构 ， 更 快 
实现 前 端 产品 需求 。 一 方面 避免 业务 高 度 复 用 的 功能 
复 建设 ， 另 一 方面 所 有 业务 触 点 信息 均 可 流向 中 台 ， 解 


决 数据 孤岛 ， 形 成 信息 共享 。 借 助 中 台 的 沉淀 能 力 ， 研 
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